Cuadro de mandos
Enlace al repositorio en GitHub

1 Introducción

1.1 Estado actual

1.2 Motivación

1.3 Objetivos

2 Aportaciones del trabajo

2.1 Principales aportaciones

2.2 Alineamiento con los objetivos de desarrollo sostenible

Grado de relación del proyecto con los objetivos de desarrollo sostenible (ODS)
ODS No procede Bajo Medio Alto
1 Fin de la Pobreza X
2 Hambre cero X
3 Salud y Bienestar X
4 Educación de calidad X
5 Igualdad de género X
6 Agua limpia y saneamiento X
7 Energía Asequible y no contaminante X
8 Trabajo decente y crecimiento económico X
9 Industria, Innovación e Infraestructuras X
10 Reducción de las desigualdades X
11 Ciudades y comunidades sostenibles X
12 Producción y consumo sostenibles X
13 Acción por el clima X
14 Vida submarina X
15 Vida de ecosistemas terrestres X
16 Paz, justicia e instituciones sólidas X
17 Alianzas para lograr objetivos X

3 Desarrollo

3.1 Herramientas empleadas

3.2 Metodología

Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:

Diagrama metodología de desarrollo CRISP-DM

  • Comprensión del negocio. Se plantean los objetivos del proyecto y la búsqueda de información y datos.
  • Comprensión de los datos. Se analiza la estructura y organización de los datos obtenidos. Se identifican posible problemas como datos faltantes, outliers o inconsistencias.
  • Preparación de los datos. Se realiza limpieza, transformación, combinación y selección/creación de variables relevantes para el análisis
  • Modelado. Selección y aplicación de los modelos adecuados para analizar los datos
  • Evaluación. Evaluar si el modelo responde a las preguntas de investigación, comparación con otros métodos
  • Despliegue. Comunicación del trabajo en una memoria y diseño y elaboración de un cuadro de mandos para presentar los resultados de forma eficaz y atractiva.

Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.

A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.

3.3 Comprensión del negocio

Para la búsqueda del dataset elegido finalmente para la realización de este proyecto, hemos llevado a cabo una serie de pasos.

En primer lugar, a través del documento facilitado por el profesor, exploré y contrasté los posibles datasets que aparecían en la tabla dinámica que ofrecía aquellos datasets que cumplían los requisitos relacionados con la temporalidad de las observaciones. Tras consultar con chatgpt, centré mi busqueda en aquellos datasets que tenían un máximo de ≈1 mill. y mínimo 10 mil observaciones. Aquellos datasets que tenían un título que me llamara la atención, se los pasaba al chatgpt para que me diera una breve descripción del mismo. Cuando ya había seleccionado los suficientes, le pedí que hiciera un top con aquellos que considerara más adecuados para el proyecto a realizar, según el temario que se impartiría en la asignatura y que está registrado en el libro de la asignatura que previamente le pasé a este chatbot.

Tras haber escrito un dataset previamente en la wiki para registrarlo, sin haber prestado mucha atención a todo las condiciones que este debía cumplir, terminé eligiendo uno que cumplía todos los requisitos expuestos en el documento proporcionado por el profesor. Una vez verificado esto, pasé al siguiente paso de comprensión de los datos elegidos.

3.4 Comprensión de los datos

3.4.1 Información general del dataset

  • code: nama_10r_2lp10
  • title: Compensation per employee and hours worked per employed person by NUTS 2 region and by industry
  • last.update.of.data: 28.04.2025
  • last.table.structure.change: 28.04.2025
  • data.start: 1995
  • data.end: 2023
  • values: 432.832

3.4.2 Explicación de variables categóricas

Los datos de nuestro dataset están organizados de forma tidy. Los variables categóricas que existen, su significado, y sus valores posibles son:

  • freq: Frecuencia con la que se toman las observaciones. Tiene un único valor “A”, que corresponde a datos anuales.

  • nace_r2: Rama de actividad económica. Se divide según la clasificación NACE Rev. 2. Los códigos pueden corresponder a una sección concreta (ej. A, C, F), a un rango de secciones consecutivas indicado con guion (ej. B-E, G-I), o a agrupaciones específicas de varias secciones señaladas con guion bajo (ej. M_N).
    Valores posibles:

    • TOTAL: Total - todas las actividades NACE
    • O-U: Administración pública y defensa; actividades de computación obligatoria; educación; salud humana y servicios sociales; artes, entretenimiento y otros servicios
    • O-Q: Administración pública, defensa, educación, actividades sanitarias y de servicios sociales
    • B-E: Industria (excepto construcción)
    • K-N: Actividades financieras y de seguros; inmobiliarias; profesionales, científicas y técnicas; servicios administrativos
    • F: Construcción
    • M_N: Actividades profesionales, científicas y técnicas; actividades administrativas y servicios auxiliares
    • A: Agricultura, silvicultura y pesca
    • C: Industria manufacturera
    • G-J: Comercio mayorista y minorista; transporte; alojamiento; información y comunicación
    • R-U: Artes, entretenimiento y recreación; otros servicios
    • G-I: Comercio mayorista y minorista; transporte; alojamiento y servicios de comida
    • J: Información y comunicaciones
    • K: Actividades financieras y de seguros
    • L: Actividades inmobiliarias

  • na_item: Tipo de indicador económico relacionado con los costes laborales y las horas trabajadas.

    • D1_SAL_HW: Coste laboral por hora trabajada, que incluye sueldos, salarios y cotizaciones sociales pagadas por el empleador (euros por hora).
    • D1_SAL_PER: Coste laboral medio por persona empleada, considerando tanto la remuneración directa como las contribuciones sociales a cargo de la empresa (euros por empleado).
    • HW_EMP: Horas efectivamente trabajadas por persona empleada en promedio, es decir, el total de horas dedicadas al trabajo dividido entre el número de empleados (horas por empleado).

  • unit: Unidad de medida de los valores registrados para cada indicador.

    • EUR: Euro
    • NAC: Moneda nacional
    • PC_EU27_2020_MEUR_CP: Porcentaje del total de la UE27 (desde 2020) en precios corrientes
    • HW: Horas trabajadas
    • PCH_PRE: Variación porcentual respecto al periodo anterior

  • geo: Regiones para las que existen observaciones.

    • NUTS 0: 29 países
    • NUTS 1: 95 regiones
    • NUTS 2: 249 comunidades
    • EU27_2020: promedio de la Unión Europea compuesto por los 27 países miembros vigentes desde el año 2020
    • OTHERS: 20 códigos que no corresponden a regiones reales

  • TIME_PERIOD: Fechas de las observaciones. Comprende datos desde 1995 hasta 2023, con observaciones anuales. La cantidad de registros por año varía, siendo especialmente elevada entre 2000 y 2021, destacando los años 2016 y 2020 como los que concentran más observaciones. Cabe destacar que en 2023 el número de registros disminuye significativamente respecto a años anteriores.

## COLUMNA: freq 
##      freq N.Observ full_name
## [1,] A    432832   Annual
## COLUMNA: nace_r2 
##       nace_r2 N.Observ full_name                                 
##  [1,] TOTAL   72411    Total - all NACE activities               
##  [2,] O-U     26963    Public administration and defence; compu..
##  [3,] O-Q     26756    Public administration, defence, educatio..
##  [4,] B-E     25989    Industry (except construction)            
##  [5,] K-N     25785    Financial and insurance activities; real..
##  [6,] F       25713    Construction                              
##  [7,] M_N     25584    Professional, scientific and technical a..
##  [8,] A       25569    Agriculture, forestry and fishing         
##  [9,] C       25569    Manufacturing                             
## [10,] G-J     25569    Wholesale and retail trade; transport; a..
## [11,] R-U     25452    Arts, entertainment and recreation; othe..
## [12,] G-I     25368    Wholesale and retail trade, transport, a..
## [13,] J       25368    Information and communication             
## [14,] K       25368    Financial and insurance activities        
## [15,] L       25368    Real estate activities
## COLUMNA: na_item 
##      na_item    N.Observ full_name                                 
## [1,] D1_SAL_HW  387510   Compensation of employees per hour worke..
## [2,] D1_SAL_PER  27607   Compensation per employee                 
## [3,] HW_EMP      17715   Hours worked per employed person
## COLUMNA: unit 
##      unit                 N.Observ full_name                                 
## [1,] EUR                  139229   Euro                                      
## [2,] NAC                  139229   National currency                         
## [3,] PC_EU27_2020_MEUR_CP 136659   Percentage of EU27 (from 2020) total (ba..
## [4,] HW                     9053   Hours worked                              
## [5,] PCH_PRE                8662   Percentage change on previous period      
## 
## CONTABILIZACIÓN Nº REGIONES NUTS A PARTIR DE LA COLUMNA geo
##      NUTS      Number of Regions
## [1,] 0          29              
## [2,] 1          95              
## [3,] 2         249              
## [4,] EU27_2020   1              
## [5,] OTHERS     20

3.4.3 Percentiles de la distribución de tamaños de las series temporales

Observamos que el tamaño de las series temporales varía entre 1 y 29 años, siendo el 90% de las series con más de 22 años.

## # A tibble: 1 × 7
##     min   p10   p25   p50   p75   p90   max
##   <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1     1    22    23    23    23    24    29

3.4.4 Distribución del nº de observaciones por regiones

Observamos que, tanto para España como para Canarias, el nº de observaciones supera el p75 de la distribución (1199 > 1159)

Percentiles de la distribución del nº de observaciones por regiones

## # A tibble: 1 × 7
##     min   p10   p25   p50   p75   p90   max
##   <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1    69  1002  1128  1149  1159  1199  1369

Nº de observaciones en España/Canarias

## # A tibble: 3 × 3
##   geo   full_name N.Observ
##   <chr> <chr>        <int>
## 1 ES    Spain         1199
## 2 ES7   Canarias      1199
## 3 ES70  Canarias      1199

3.4.5 Combinaciones existentes de las variables categóricas

El dataset presenta 50 combinaciones únicas de variables categóricas (freq, nace_r2, na_item, unit), cumpliendo el criterio mínimo de tener al menos 5 atributos combinados con un número relativamente alto de observaciones (≈8600 observ.).

## # A tibble: 50 × 7
## # Groups:   freq, nace_r2, na_item [17]
##    freq  nace_r2 na_item    unit                 N.observ init.date end.date
##    <chr> <chr>   <chr>      <chr>                   <int>     <dbl>    <dbl>
##  1 A     TOTAL   D1_SAL_PER EUR                      9299      1995     2023
##  2 A     TOTAL   D1_SAL_PER NAC                      9299      1995     2023
##  3 A     TOTAL   D1_SAL_HW  EUR                      9083      1995     2023
##  4 A     TOTAL   D1_SAL_HW  NAC                      9083      1995     2023
##  5 A     TOTAL   HW_EMP     HW                       9053      1995     2023
##  6 A     O-U     D1_SAL_HW  EUR                      9041      1995     2023
##  7 A     O-U     D1_SAL_HW  NAC                      9041      1995     2023
##  8 A     TOTAL   D1_SAL_PER PC_EU27_2020_MEUR_CP     9009      2000     2023
##  9 A     O-Q     D1_SAL_HW  EUR                      8972      1995     2023
## 10 A     O-Q     D1_SAL_HW  NAC                      8972      1995     2023
## 11 A     TOTAL   D1_SAL_HW  PC_EU27_2020_MEUR_CP     8923      2000     2023
## 12 A     O-U     D1_SAL_HW  PC_EU27_2020_MEUR_CP     8881      2000     2023
## 13 A     O-Q     D1_SAL_HW  PC_EU27_2020_MEUR_CP     8812      2000     2023
## 14 A     B-E     D1_SAL_HW  EUR                      8713      1995     2023
## 15 A     B-E     D1_SAL_HW  NAC                      8713      1995     2023
## 16 A     TOTAL   HW_EMP     PCH_PRE                  8662      1996     2023
## 17 A     K-N     D1_SAL_HW  EUR                      8645      1995     2023
## 18 A     K-N     D1_SAL_HW  NAC                      8645      1995     2023
## 19 A     F       D1_SAL_HW  EUR                      8621      1995     2023
## 20 A     F       D1_SAL_HW  NAC                      8621      1995     2023
## 21 A     M_N     D1_SAL_HW  EUR                      8578      1995     2023
## 22 A     M_N     D1_SAL_HW  NAC                      8578      1995     2023
## 23 A     A       D1_SAL_HW  EUR                      8573      1995     2023
## 24 A     A       D1_SAL_HW  NAC                      8573      1995     2023
## 25 A     C       D1_SAL_HW  EUR                      8573      1995     2023
## 26 A     C       D1_SAL_HW  NAC                      8573      1995     2023
## 27 A     G-J     D1_SAL_HW  EUR                      8573      1995     2023
## 28 A     G-J     D1_SAL_HW  NAC                      8573      1995     2023
## 29 A     B-E     D1_SAL_HW  PC_EU27_2020_MEUR_CP     8563      2000     2023
## 30 A     R-U     D1_SAL_HW  EUR                      8534      1995     2023
## 31 A     R-U     D1_SAL_HW  NAC                      8534      1995     2023
## 32 A     G-I     D1_SAL_HW  EUR                      8506      1995     2023
## 33 A     G-I     D1_SAL_HW  NAC                      8506      1995     2023
## 34 A     J       D1_SAL_HW  EUR                      8506      1995     2023
## 35 A     J       D1_SAL_HW  NAC                      8506      1995     2023
## 36 A     K       D1_SAL_HW  EUR                      8506      1995     2023
## 37 A     K       D1_SAL_HW  NAC                      8506      1995     2023
## 38 A     L       D1_SAL_HW  EUR                      8506      1995     2023
## 39 A     L       D1_SAL_HW  NAC                      8506      1995     2023
## 40 A     K-N     D1_SAL_HW  PC_EU27_2020_MEUR_CP     8495      2000     2023
## 41 A     F       D1_SAL_HW  PC_EU27_2020_MEUR_CP     8471      2000     2023
## 42 A     M_N     D1_SAL_HW  PC_EU27_2020_MEUR_CP     8428      2000     2023
## 43 A     A       D1_SAL_HW  PC_EU27_2020_MEUR_CP     8423      2000     2023
## 44 A     C       D1_SAL_HW  PC_EU27_2020_MEUR_CP     8423      2000     2023
## 45 A     G-J     D1_SAL_HW  PC_EU27_2020_MEUR_CP     8423      2000     2023
## 46 A     R-U     D1_SAL_HW  PC_EU27_2020_MEUR_CP     8384      2000     2023
## 47 A     G-I     D1_SAL_HW  PC_EU27_2020_MEUR_CP     8356      2000     2023
## 48 A     J       D1_SAL_HW  PC_EU27_2020_MEUR_CP     8356      2000     2023
## 49 A     K       D1_SAL_HW  PC_EU27_2020_MEUR_CP     8356      2000     2023
## 50 A     L       D1_SAL_HW  PC_EU27_2020_MEUR_CP     8356      2000     2023

3.4.6 Poner las fechas por columnas

Observamos que los datos se mantienen constantes desde el año 2000 hasta el 2023, registrando valores más altos en periodos recientes en comparación con los antiguos.

Visualización España/Canarias (máximo 60 columnas y 1000 filas por región)

3.5 Preparación de los datos

Vamos a comenzar leyendo el dataset desde local y realizando una limpieza general de los datos innecesarios. Renombramos algunas variables, eliminamos columnas que no aportan información relevante y añadimos una columna con el nombre completo de las regiones a las que hace referencia la variable geo.

Una vez estructurados y limpiados los datos, exploraremos inicialmente las diferencias entre países según los indicadores disponibles en el dataset. Esto nos permitirá identificar patrones generales, contrastar la posición de España frente a otros países y preparar los datos para un análisis más detallado a nivel sectorial y regional.

En primer lugar, analizamos la evolución del coste laboral por hora trabajada en distintos países. Cada línea representa un país, mostrando tendencias de crecimiento o reducción a lo largo del tiempo, lo que nos permite situar a España en un contexto internacional.

A continuación, examinamos los diez países con mayor y menor carga laboral promedio por empleado. Los valores reflejan horas efectivas trabajadas por semana, y la línea roja indica la posición de España para contextualizar su situación frente a estos países.

Luego, mostramos los países con mayor coste laboral por hora trabajada. Se incluyen los datos más recientes disponibles (2018-2023).

Para complementar la visión internacional, se incluye un mapa de calor que compara el coste medio por sector entre distintos países. Los colores más intensos indican costes más altos, facilitando la identificación de sectores más costosos en cada país. Usaremos el indicador PC_EU27_2020_MEUR_CP, que muestra el porcentaje que representa cada país respecto al total de la Unión Europea (UE27) en precios corrientes. Usaremos los datos más recientes (2018-2023).

Vamos a hacer lo mismo ahora para las comunidades autónomas de España, usando el indicador EUR, que representa el valor del precio medio por hora trabajada expresado directamente en euros. Usaremos también los datos más recientes (2018-2023).

A continuación, comparamos el coste medio por hora trabajada según el sector laboral en España. Este gráfico permite identificar los sectores con salarios más altos y más bajos por hora, facilitando el análisis comparativo entre ellos.

Seguido de esto, se muestra la participación de cada sector en el coste laboral medio total de España durante 2023 mediante un gráfico por secciones. Esto permite analizar qué sectores contribuyen más o menos al coste global.

Para entender la variabilidad interna, se incluye un boxplot del coste laboral medio por persona empleada en los países de Europa analizados previamente. Este gráfico permite observar los valores típicos, la dispersión y posibles valores atípicos dentro de los distintos países.

Finalmente, se presenta un gráfico de dispersión comparando el coste laboral medio entre España y Canarias. Cada punto representa un sector o grupo de empleados, permitiendo visualizar diferencias y correlaciones entre ambos territorios.

3.6 Modelado

En esta parte del análisis, nos centramos en estudiar la evolución temporal de las horas trabajadas en España y su remuneración por hora, para posteriormente aplicar modelos de predicción ARIMA que permitan estimar su posible comportamiento en los próximos años.

3.6.1 Análisis de las horas trabajadas

Comenzamos observando la evolución de las horas trabajadas en España durante el periodo disponible. Destaca la caída registrada en 2020, resultado del impacto de la pandemia y de la reducción de las horas efectivas trabajadas por los ERTE y las restricciones laborales.

Para ajustar el modelo ARIMA de horas trabajadas, omitimos el año 2020, ya que la anomalía causada por la pandemia distorsionaría los parámetros del modelo.

A continuación, comparamos la evolución de España y Canarias, donde se aprecia que las horas trabajadas en Canarias son superiores a la media nacional, reflejando la particularidad de su mercado laboral y la mayor presencia de sectores con jornadas más largas.

España mantiene horas trabajadas superiores a la media europea, situándose en un nivel más alto en comparación con otros países de la UE.

Con el modelo ARIMA aplicado a las horas trabajadas, se estima la evolución para los próximos cinco años. El modelo se ha ajustado omitiendo 2020, dado el impacto anómalo de la pandemia, y proyecta una ligera continuidad en la tendencia a la baja, aunque con cierta variabilidad en los valores futuros.

3.6.2 Análisis de la remuneración por hora

Pasamos después al análisis de la remuneración por hora trabajada, que muestra una trayectoria más estable y creciente en el tiempo, reflejando una recuperación progresiva tras la crisis sanitaria.

En la comparación entre España y Canarias, se observan diferencias consistentes: las islas mantienen remuneraciones inferiores a la media nacional, influenciadas por su estructura productiva y los sectores predominantes.

En el contexto europeo, la remuneración media por hora en España es ligeramente inferior a la media de la UE, reflejando diferencias en productividad y estructura económica.

Finalmente, el modelo ARIMA aplicado a la remuneración muestra un ajuste más preciso que el de las horas trabajadas y proyecta un aumento moderado y constante en los próximos años, consolidando la tendencia positiva observada en el periodo reciente.

3.7 Evaluación

3.8 Despliegue

4 Conclusiones y trabajo futuro

4.1 Conclusiones

4.2 Trabajo futuro

Anexo. Seguimiento temporal actividades del proyecto

TOTAL HORAS TRABAJADAS EN EL PROYECTO : 18.8

DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO